综述丨基于深度学习的手语识别综述

Original 张淑军，张群等电子与信息学报 2022-07-02

收录于合集 #推荐综述 10个

手语是一种重要的人类肢体语言表达方式，包含信息量多，是聋哑人和健听人之间沟通的主要方式。手语学习有利于听觉障碍者与听觉障碍者、健听人与听觉障碍者之间的沟通和教育。因此，有利于手语教学和应用的手语识别技术被迫切需要。

手语识别是借助计算机自动将手语信号转换为文本或语音的过程。根据手语获取方式的不同，分为基于数据手套和基于视觉的手语识别，前者可以实时采集手势的3维运动信息和时序变化，然后应用识别算法进行处理，识别速度快，准确率高，但是设备复杂，价格昂贵，且对操作者有约束，佩戴不方便，因此基于视觉的手语识别成为主流。

近年来，手语识别不断发展，而大数据的时代背景也为手语识别带来新的机遇。基于深度学习、挖掘人类视觉与认知规律的手语识别技术成为必然。

今日，小编推荐青岛科技大学张淑军教授团队发表于《电子与信息学报》2020年42卷第4期的综述：基于深度学习的手语识别综述，该文首先介绍了近年来基于深度学习的手语识别技术，从孤立词与连续语句两个分支展开详细的算法阐述与分析。然后归纳总结了目前国内外常用手语数据集及评估标准。最后探讨了研究挑战与未来发展趋势。

论文看点

1基于深度识别的手语识别技术

手语识别涉及视频采集和处理、计算机视觉、人机交互、模式识别、自然语言处理等多个研究领域，是一项具有高难度的挑战性课题。基于深度学习的孤立词手语识别与连续语句手语识别。

图1 总体分类图

>>>>基于深度学习的孤立词手语识别

孤立词手语识别的对象是以视频表达的单个孤立手语词汇相对连续语句而言，孤立词手语视频时长较短，语义简单明确，识别主要围绕如何更有效地描述手语的底层特征、降低误判率展开。从时序信息的处理上，将技术方法分为基于卷积神经网络、3维卷积神经网络或循环神经网络3种网络的主体框架。此方面的研究国内以中国科学院计算所、中国科学院自动化所、中国科学技术大学、西安电子科技大学等比较活跃，国外以亚琛工业大学、根特大学等成果较多。

>>>>基于深度学习的连续语句手语识别

相比于孤立词手语识别，连续语句的识别需要建立更为可靠的长期时序依赖。最初的连续语句识别是在单个孤立词识别的基础上进行研究，需要用到时序分割的相关算法，但由于时序分割过程复杂、误判率高等问题，近年来学者们逐渐绕开了时序分割，将语音识别的时序对齐算法及编解码网络用于本领域的研究，其中包括基于CTC时序算法和用于长时序建模的编解码网络，在此基础上实现连续语句的手语识别。

2手语数据集的发展和简述

手语识别问题本质上属于人工智能范畴，人工智能的3大核心驱动力包括：算力、算法和大数据。没有大规模的数据，深度学习方法就无法发挥其优势作用。因此，基于深度学习的手语识别技术的发展也必然依附于大规模的手语数据集，以进行算法研究、对比分析与标准评估。

>>>>RWTH-PHOENIX-Weather

图2 RWTH德国手语数据样例

>>>>CSL数据集

图3 CSL中国手语数据样例

>>>>Chalearn数据集

图4 Chalearn数据集每帧的视觉方式

总结与展望

手语识别在计算机视觉、模式识别、人机交互、虚拟现实等相关领域有着重要的研究价值，尽管近年来深度学习技术已经很大程度上提高了手语识别的精度与速度，但距离真正实时、鲁棒、精准的手语识别与翻译的应用目标，还有一定的空间。

(1) 手语行为本身的灵活性与细节性：手语是由上肢和手部动作形成的行为序列，手部是人体最灵活的肢体，其内外、正反、距离上肢的远近、角度以及五指的动作等，都对手语语义有影响。部分手语还涉及嘴唇及面部表情的配合。因此，识别准确率与实时性仍是手语识别追求的目标。

(2) 手语行为受背景干扰、光照、观察角度及操作者规范程度等的影响：目前的数据集中，操作者通常都是整体站立不动、只有上肢和手部运动，但在现实应用中存在复杂背景、多人遮挡、光照条件变化、操作者全身运动、打手语不够标准等各种情况，为识别带来更大的难度。